[Day 2] 什麼是 LLM

2024 iThome 鐵人賽

DAY 2

生成式 AI

RAG自己來系列：客服機器人系列第 2 篇

16th鐵人賽

iervn6341

團隊NUTC imac

2024-09-10 09:58:11

230 瀏覽

分享至

引用圖源: Enterprise LLMs of the Future: Bigger is not Better

LLM (Large Language Model)，基於大量資料進行預訓練的超大型深度學習模型。基礎轉換器是一組神經網路，這些神經網路由具有自我專注功能的編碼器和解碼器組成。編碼器和解碼器從一系列文字中提取含義，並理解其中的字詞和片語之間的關係。

在LLM出現前，有一個非常重要的技術，Transformer，由 Google 在 2017 由 Illia Polosukhin 與 Aidan Gomez 等等八位工程師提出，現已逐步取代長短期記憶（LSTM）與 RNN 模型成為了 NLP 問題的首選模型。並列化優勢允許其在更大的資料集上進行訓練。這也促成了BERT、GPT等預訓練模型的發展。這些系統使用了維基百科、Common Crawl等大型語料庫進行訓練，並可以針對特定任務進行微調。

對比於傳統用來處理自然語言的技術，如 RNN 與 LSTM 等等，但前者的缺點為對於上下文理解的能力，後者則無法同時處理大量不同的語句，這時 Transformer 的出現解決了以上的問題；但其實 Transformer 也不是完美的存在，當輸入的文字過多時，模型會遺失部份的資訊，也就是大家在使用 ChatGPT 時會遇到當入問題到達一定程度時，模型回覆的：「問題過於冗長，無法處理。」等回覆。

除了大家耳熟能詳的 GPT-3.5、GPT-4o、GPT-4 等等由 OpenAI 訓練出來的語言模型，還有來自法國 Mistral 團隊的 Mistral-7B、Google 的 Gemma-7B等等小模型，其中 7B(biliion) 是指模型中有 70 億(左右)個參數，也可以說是神經元 對，就是那個在用 TensorFlow 使用.summary()會出現的那個 ，本系列就是要教大家，如何不使用 OpenAI 的 GPT 來部屬自己的 RAG 問答系統。